OpenAI 在凌晨的春季更新串流節目中發表 GPT-4o 模型,它具備 GPT-4 Turbo 的同等智能,但回應速度快一倍,並能同時處理語音、文字和視覺輸入。

 

GPT-4o 中的「o」代表「全方位(omni)」,指的是該模型的可以同時處理多種輸入輸出模式的能力。OpenAI 表示,GPT-4o 與 GPT-3.5 或 GPT-4 不同,兩者雖然允許用戶通過說話提問,但其實背後是將將語音轉錄成文字,再將文字回應轉成語音。

 

GPT-4o 在訓練的過程中就已經整合了文字、視覺和音訊,這意味著所有這些不同模式的輸入和輸出,都依然由同一個神經網絡處理。

 

OpenAI 在 YouTube 頻道上張貼了 16 段影片,展示使用 GPT-4o 模型的 ChatGPT app 即時語音助理功能,它同時具備幾乎即時的語音辨識和電腦視覺能力,能觀看手寫文字、圖案及算式,即時翻譯,又能即時分析用戶批准它觀看的畫面內容,包括即時分析程式或圖表,提供意見。

 

ChatGPT 語音助理說話相當自然,用戶也像與真人交談一樣,回應相當快速,不過她有點長氣,示範期間主持人也多次打斷她。另外,它的效能比 GPT-4 Turbo 提升一倍,但成本就只是 GPT-4 Turbo 的一半,上下文窗口仍然是 128,000 token。GPT-4o 的語言處理能力在質量和速度上均有顯著提高,現支援超過 50 種語言。

 

OpenAI 將在未來幾周內向所有人開放新模型,包括免費的 ChatGPT 用戶。該公司同時還將發表一個 Window 版的 ChatGPT,但最初僅推出 Mac 版本,付費用戶可以從今天開始試用。